这项研究介绍了一个称为批处理层归一化(BLN)的新的归一化层,以减少深神经网络层中内部协变量转移的问题。作为批处理和层归一化的组合版本,BLN自适应地将适当的重量放在迷你批处理上,并基于迷你批次的逆尺寸,在学习过程中将输入标准化为层。它还使用微型批量统计或人口统计数据,在推理时间执行精确的计算,并在推理时间进行较小的更改。使用迷你批量或人口统计的决策过程使BLN具有在模型的超参数优化过程中发挥全面作用的能力。 BLN的关键优势是对独立于输入数据的理论分析的支持,其统计配置在很大程度上取决于执行的任务,培训数据的量和批次的大小。测试结果表明,BLN的应用潜力及其更快的收敛性在卷积和复发性神经网络中都比批处理归一化和层归一化。实验的代码在线公开可用(https://github.com/a2amir/batch-layer-normalization)。
translated by 谷歌翻译
与标准命名实体识别(NER)相比,在历史文本中识别人,位置和组织是一个巨大的挑战。为了获得机器可读的语料库,通常需要扫描历史文本,并且需要执行光学特征识别(OCR)。结果,历史文献包含错误。此外,位置或组织等实体可以随着时间的推移而改变,这构成了另一个挑战。总体而言,历史文本带有几种特殊性,这些特殊性与现代文本有很大不同,并且在该领域几乎无法使用训练神经标记器的大型标记的Corpora。在这项工作中,我们通过培训大型历史语言模型来解决历史,英语,法语,瑞典语和芬兰语的历史文献。我们通过使用未标记的数据预处理语言模型来规避大量标记数据的需求。我们提出了Hmbert,这是一种历史多语言基于BERT的语言模型,并以多种不同大小的版本发布该模型。此外,我们通过解决下游NER作为今年HIPE-2022共享任务的一部分来评估HMBERT的能力,并提供详细的分析和见解。对于多种语言的经典评论粗粒ner挑战,我们的标记者Histeria的表现优于其他团队的三种语言中的其他团队的模型。
translated by 谷歌翻译